# Выбор локации для скважины
## Описание проекта
Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. <p>
Шаги для выбора локации обычно такие:<p>
В избранном регионе собирают характеристики для скважин: качество нефти и объём её запасов;<p>
Строят модель для предсказания объёма запасов в новых скважинах;<p>
Выбирают скважины с самыми высокими оценками значений;<p>
Определяют регион с максимальной суммарной прибылью отобранных скважин.<p>
Вам предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Постройте модель для определения региона, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой Bootstrap.<p>
## Инструкция по выполнению проекта
Загрузите и подготовьте данные. Поясните порядок действий.<p>
Обучите и проверьте модель для каждого региона:<p>
 2.1. Разбейте данные на обучающую и валидационную выборки в соотношении 75:25.<p>
 2.2. Обучите модель и сделайте предсказания на валидационной выборке.<p>
 2.3. Сохраните предсказания и правильные ответы на валидационной выборке.<p>
 2.4. Напечатайте на экране средний запас предсказанного сырья и RMSE модели.<p>
 2.5. Проанализируйте результаты.<p>
Подготовьтесь к расчёту прибыли:<p>
 3.1. Все ключевые значения для расчётов сохраните в отдельных переменных.<p>
 3.2. Рассчитайте достаточный объём сырья для безубыточной разработки новой скважины. Сравните полученный объём сырья со средним запасом в каждом регионе. <p>
 3.3. Напишите выводы по этапу подготовки расчёта прибыли.<p>
Напишите функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели:<p>
 4.1. Выберите скважины с максимальными значениями предсказаний. <p>
 4.2. Просуммируйте целевое значение объёма сырья, соответствующее этим предсказаниям.<p>
 4.3. Рассчитайте прибыль для полученного объёма сырья.<p>
Посчитайте риски и прибыль для каждого региона:<p>
 5.1. Примените технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли.<p>
 5.2. Найдите среднюю прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.<p>
 5.3. Напишите выводы: предложите регион для разработки скважин и обоснуйте выбор.<p>
## Описание данных
Данные геологоразведки трёх регионов находятся в файлах: <p>
/datasets/geo_data_0.csv. Скачать датасет<p>
/datasets/geo_data_1.csv. Скачать датасет<p>
/datasets/geo_data_2.csv. Скачать датасет<p>
id — уникальный идентификатор скважины;<p>
f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);<p>
product — объём запасов в скважине (тыс. баррелей).<p>
### Условия задачи:
Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).<p>
При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.<p>
Бюджет на разработку скважин в регионе — 10 млрд рублей.<p>
При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.<p>
После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.<p>
Данные синтетические: детали контрактов и характеристики месторождений не разглашаются.<p>
